AI News

Interfaze は、diffusion-gemma-asr-small を公開した。これは、音声AIにおけるあまり一般的ではない設計選択、つまり従来型の自己回帰的な文字起こしスタックではなく、拡散ベースのデコーダーを採用したオープンソースの自動音声認識(ASR)モデルだ。入手できる限られた一次情報によれば、このモデルは6言語を文字起こしし、DiffusionGemma の並列デノイジング・デコーダーを用いていると説明されている。

そのため、運用上の詳細の多くが不明なままであっても、この公開は注目に値する。オープンな音声認識は競争の激しい分野だが、ほとんどの実運用チームはいまだに、いくつかの見慣れたアプローチのいずれかを選んでいる。たとえば、大規模なエンドツーエンドの transformer ASR システム、encoder-decoder モデルの最適化版、あるいは大手ベンダーが提供するパッケージ化された API だ。Interfaze は、画像分野で影響力を持ち、さらにマルチモーダル系にも広がりつつある拡散型生成が、テキストを並列デノイジングのステップで生成することで、音声文字起こしにも有用な道筋を与える可能性があると主張しているように見える。

Interfaze が公開したとされる内容

ソース資料から確認できる最も明確な事実は、範囲は狭いものの重要だ。MarkTechPost の報道によれば、Interfaze は diffusion-gemma-asr-small というモデルを公開した。その記事では、このモデルはオープンソースで、6言語の文字起こしが可能であり、DiffusionGemma とその並列デノイジング・デコーダーを中心に構築されていると説明している。

それ以外の点については、現時点の証拠は薄い。利用可能なソースには、モデルのライセンス条件、対応するデプロイ先、学習データセットの詳細、ベンチマーク結果、パラメータ数、レイテンシ特性、あるいは正確な6言語の内訳は示されていない。また、今回の公開に重み、学習コード、推論コード、評価スクリプトが含まれるのかも明記されていない。これらの欠落は重要だ。なぜなら、オープンソース ASR の採用は、見出しのモデル名そのものよりも、パッケージ化、再現性、ハードウェア適合性、そして多言語評価の品質に左右されるからだ。

とはいえ、こうした欠落があっても、製品の位置づけ自体には意味がある。diffusion-gemma-asr-small という名前は、Interfaze が小さめのフットプリントを持つ ASR 提供物と、拡散手法および Gemma エコシステムから借りたアーキテクチャ上の物語を組み合わせようとしていることを示唆している。もしこの解釈が正しければ、同社は単なる別の音声モデルを出したのではなく、実用的な文字起こしタスクで開発者が拡散ベースのテキストデコードを真剣に受け止めるかどうかを試していることになる。

ASR において拡散デコードが重要な理由

多くのなじみ深い音声認識システムでは、文字起こしはトークンごとに進み、新しいトークンはそれ以前の出力に条件づけられる。この自己回帰的なパターンはよく理解されており、精度面でも強いことが多いが、推論速度、beam search の複雑さ、誤差の連鎖といった面でトレードオフを生むことがある。並列デノイジング・デコーダーは異なる生成プロセスを意味し、出力を厳密に左から右へ伸ばすのではなく、複数ステップにわたって洗練していく。

ソース資料では、その仕組みが DiffusionGemma に帰されている。もし Interfaze がその設計を音声認識に適用したのであれば、重要な技術的主張は単に多言語対応であることではない。拡散スタイルのデコーダーが ASR で実用可能かもしれず、レイテンシと品質のトレードオフやデコード効率の考え方そのものを変える可能性がある、という点だ。

もちろん、それだけでこの手法が既存システムより優れているとまでは言えない。ASR の利用者は、デコーダーの新規性よりも、通常は word error rate、多言語ロバスト性、アクセントへの対応、雑音下での性能、そして実行コストを重視する。しかし、より並列な計算、より安定したデコード挙動、あるいは言語横断でのスケーリングのしやすさにつながるのであれば、モデルのアーキテクチャは確かに重要だ。

研究者やオープンモデルの開発者にとって、この公開が興味深いのは、画像生成ほどは拡散手法によって音声が目に見えて変わってこなかったからだ。DiffusionGemma に結びついた公開モデルは、特に小規模な多言語環境において、非自己回帰型あるいは半並列型の文字起こしパイプラインに関する実験を促す可能性がある。

オープンソース ASR をめぐる競争環境

Interfaze は、すでに高い期待が置かれているオープン系および商用系の市場に参入している。Whisper は、多くの開発者の会話における基準点のままだ。たとえ最終的に、ドメイン適応、低レイテンシ、ストリーミング対応、エンタープライズ制御の強化を理由に、より特化したシステムへ移行するチームがあったとしてもだ。企業の買い手はまた、ワークフローやコンプライアンス要件に応じて、Google Cloud や OpenAI のような事業者が提供する管理型音声 API と、新しい ASR モデルを比較する。

だからこそ、diffusion-gemma-asr-small の「small」は、拡散という主張と同じくらい重要かもしれない。小型の ASR モデルは、オンデバイス推論、エッジ展開、GPU コストの低減、あるいは管理された環境内でのプライベートな文字起こしに魅力的だ。もし Interfaze がその市場の一角を狙っているなら、DiffusionGemma の新規性だけでなく、チームがすでに厳しくベンチマークしている実用面、すなわちメモリ使用量、多言語の一貫性、スループット、そして実世界の音声に対する挙動で競争できることを示す必要がある。

6言語対応という位置づけも、商業的には重要だ。多言語対応は魅力の幅を広げるが、買い手は通常、対応言語がすべて同等に重要なのか、それとも1つか2つが性能を支配しているのかを確認したがる。言語ごとの評価がなければ、「6言語」は機能ラベルにすぎず、エンタープライズの意思決定指標にはならない。

ただし、オープンソースのエコシステムにとっては、より狭い成功でも意味を持ちうる。もし diffusion-gemma-asr-small が、好ましい計算コストの範囲で十分な品質を示せば、あまりにも多くのプロジェクトが同じ継承されたアーキテクチャ選択に収束している分野に、多様性をもたらすかもしれない。

証拠、主張、そして未検証の点

この話は、一次公開資料ではなく、薄いメディアレベルのソース記録に依拠している。ソース群にある2つの項目は実質的に同じ MarkTechPost 記事であり、確認のために利用できる抽出テキストも見出しと短い要約に限られている。そのため、公開のいくつかの側面は、提示された証拠から独立に確認できない。

ソース報道から確認できること: Interfaze は diffusion-gemma-asr-small を公開した。モデルはオープンソースと説明されている。6言語を文字起こしするとされている。そしてデコーダーは DiffusionGemma の並列デノイジング・デコーダーを使うと説明されている。

利用可能な証拠からは確認できないこと: ベンチマークスコア、Whisper や他の ASR ベースラインに対する比較優位、学習データの構成、ライセンス、商用利用の許諾、ストリーミング対応、デプロイ要件、そして公開に完全な再現性資産が含まれるかどうか。もし MarkTechPost の元記事により強い性能主張が含まれていたとしても、それらは公開評価や第三者による再現がない限り、ベンダー発表として扱うべきだ。

この区別が重要なのは、音声モデルは評価設定に非常に敏感だからだ。精度は、句読点の正規化、ドメインの不一致、音声品質、言語の混在、そしてテストセットが会話、電話、放送、遠距離収音のどれを反映しているかによって大きく変わりうる。こうした詳細がなければ、開発者は暗示された品質シグナルを慎重に扱うべきだ。

これは開発者と企業チームに何を意味するか

AI 開発者にとって、diffusion-gemma-asr-small の直近の価値は、既存の本番向け音声スタックを一夜にして置き換えることよりも、設計空間を広げることにある。文字起こし製品、会議アシスタント、音声ワークフロー、あるいはマルチモーダル・パイプラインを構築しているチームは、DiffusionGemma 風のデコーダーが推論挙動を有用な形で変えるかどうかを調べたくなるかもしれない。

もしこのモデルが本当に軽量で、かつ制限の緩いオープンなものなら、管理型 API よりも高い制御性を求める企業 AI チームにとって価値があるかもしれない。データ所在地、オフライン推論、あるいは予測可能な単位経済性が重要な分野では、たとえ能力が中程度でもオープンソースの ASR モデルが注目されうる。特に、検索パイプライン、コールセンター分析、メモ生成、あるいは音声入力から始まるエージェント的システムとよく統合できるなら、その傾向は強い。

それでも、企業は公開見出しだけから過剰に読み取るべきではない。Interfaze を本番で試験導入する前に、導入側はドメイン適応、話者分離との互換性、ストリーミング挙動、句読点の安定性、多言語の端的な難所、そして運用支援についての証拠を必要とするだろう。強い研究公開と、デプロイ可能な ASR コンポーネントとの間には大きな隔たりがある。

創業者にとっては、この公開は、フロンティア基盤モデルの下層でも差別化の余地がまだ残っていることを改めて思い出させるものだ。音声認識はいまなお大量利用されるワークフローであり、十分に満たされていないニッチが多い。もし Interfaze が、diffusion-gemma-asr-small がより良いコスト性能比や、より容易な多言語スケーリングを提供できると証明できれば、既存勢力がひしめく市場でも traction を得られるかもしれない。

次に注目すべき点

次の注目シグナルは、具体的で検証しやすいものだ。まず Interfaze は、モデルカード、リポジトリ、ライセンス、チェックポイントへのアクセス、再現可能なベンチマークといった一次資料を公開する必要がある。そうしなければ、diffusion-gemma-asr-small を真剣なチームが評価するのは難しい。

次に市場は、Interfaze が対応すると言う6言語それぞれについて、Whisper や他のオープンソース ASR ベースラインとの比較データを求めるだろう。言語ごとのエラー率、雑音音声テスト、ハードウェア固有のレイテンシ数値のほうが、アーキテクチャのブランディングだけよりも、はるかに信頼性を裏づける。

第三に、開発者は、DiffusionGemma の並列デノイジング・デコーダーが、概念的な新規性だけでなく ASR において運用上の利点を生む証拠を探すべきだ。推論の高速化、特定のアクセラレータ上でのより良いスケーリング、あるいは多言語条件下でのより安定した出力は、いずれも意味がある。

最後に、Interfaze が単一の小型モデルからより広いファミリーへ展開するかどうかを見守る価値がある。より大きなチェックポイント、ストリーミング版、あるいは音声+言語の統合を含む公開の階層があれば、それは一度きりの実験ではなくプラットフォーム戦略を示唆する。

Creati.ai の見解

この話で最も重要なのは、また別のオープンソース音声モデルが現れたことではない。むしろ、Interfaze が、製品チームがほぼ同じようなアーキテクチャパターンを評価することに慣れてしまった分野で、異なるデコード仮定を試していることだ。もし diffusion-gemma-asr-small が適切にパッケージ化され、再現可能であれば、自己回帰型 ASR の代替を探る研究者や開発者にとって、有用な参照点になりうる。

しかし、証拠の観点から見ると、この公開はまだ शुरुआだ。Interfaze が直接のベンチマーク、言語カバレッジの詳細、デプロイ指針を公開するまでは、企業 AI チームは diffusion-gemma-asr-small を有望だが未実証のものとして扱うべきだ。音声インフラでは、アーキテクチャの新規性は、雑音の多い音声、多言語の端的な難所、そして現実的なコスト制約に直面してなお生き残ってこそ意味を持つ。今、Interfaze が超えるべき基準はそこにある。

フィーチャー
AirMusic
AirMusic
AirMusic.aiは、テキストプロンプトからスタイルやムードのカスタマイズ、ステム(分離トラック)出力をサポートする高品質なAI音楽トラックを生成します。
AdsCreator.com
AdsCreator.com
任意のウェブサイト URL から、Meta、Google、Stories 向けのブランドに沿った洗練された広告クリエイティブを即座に生成します。
KiloClaw
KiloClaw
ホステッドの OpenClaw エージェント:ワンクリックでデプロイ、500以上のモデル、セキュアなインフラ、自動化されたエージェント管理をチームと開発者に提供します。
Atoms
Atoms
マルチエージェント自動化により、コーディング不要で数分以内にフルスタックアプリやWebサイトを構築するAI駆動プラットフォーム。
VoxDeck
VoxDeck
視覚革命をリードするAIプレゼンテーションメーカー
Refly.ai
Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
Skywork.ai
Skywork.ai
Skywork AIは、生産性を向上させるための革新的なAIツールです。
Pippit
Pippit
Pippitの強力なAIツールでコンテンツ作成を向上させましょう!
Diagrimo
Diagrimo
Diagrimoはテキストをカスタマイズ可能なAI生成の図表やビジュアルに瞬時に変換します。
BGRemover
BGRemover
SharkFoto BGRemoverでオンラインで簡単に画像の背景を削除できます。
SuperMaker AI Video Generator
SuperMaker AI Video Generator
SuperMakerを使って、驚くべき動画、音楽、画像を簡単に作成できます。
Elser AI
Elser AI
テキストと画像をアニメ風アート、キャラクター、音声、短編映画に変換するオールインワンのウェブスタジオ。
FineVoice
FineVoice
文字を感情に変える — 数秒で表現力豊かなAIボイスをクローン、デザイン、作成しよう。
Qoder
Qoder
Qoderは、ソフトウェアプロジェクトの計画、コーディング、テストを自動化するAI駆動のコーディングアシスタントです。
Flowith
Flowith
Flowithは、無料の🍌Nano Banana Proやその他の効果的なモデルを提供するキャンバスベースのエージェント型ワークスペースです...
FixArt AI
FixArt AI
FixArt AI はサインアップ不要で、無料かつ制限なしの画像・動画生成用AIツールを提供します。
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
ブラウザベースのAIが、あらゆる2D画像やテキストプロンプトを30秒で3Dモデルに変換。GLB、OBJ、STL、PLYを書き出し可能—無料
AI Clothes Changer by SharkFoto
AI Clothes Changer by SharkFoto
SharkFoto の AI Clothes Changer は、フィット感、質感、ライティングまでリアルに再現した服を瞬時にバーチャル試着できます。
Funy AI
Funy AI
想像をアニメに!画像やテキストからAIでビキニやキスの動画を生成。AI着せ替え機能も搭載。登録不要、完全無料!
Palix AI
Palix AI
クリエイター向けのオールインワンAIプラットフォーム。統一されたクレジットで画像、動画、音楽を生成できます。
SkyGen Plus
SkyGen Plus
画像、動画、音楽を一つのスムーズなワークフローで生成できる、マルチモデルAI制作プラットフォームです。
Image 2 AI
Image 2 AI
OpenAI搭載の画像生成・編集ツール。フォトリアルなビジュアル、正確な文字描画、UIモックアップに対応。
SharkFoto
SharkFoto
SharkFoto は、動画、画像、音楽を効率的に作成・編集するためのオールインワンの AI 搭載プラットフォームです。
kinovi - Seedance 2.0 - Real Man AI Video
kinovi - Seedance 2.0 - Real Man AI Video
リアルな人物を出力する無料のAI動画ジェネレーター。透かしなし、商用利用権付き。
Imagvio AI
Imagvio AI
正確な編集、生成、そして一貫性重視のクリエイティブなワークフローを備えた、AI 搭載の画像・動画制作プラットフォーム。
Gemini Omni - Video Generator
Gemini Omni - Video Generator
会話型編集、マルチモーダル参照、一貫性のある短尺生成のためのAI動画作成プラットフォーム。
APIMaster
APIMaster
フィンガープリントで検証された本物のLLM。1つのAPI、公式価格より最大70%オフ。
Questie AI - Game Companion
Questie AI - Game Companion
画面を見て、音声で会話し、プレイをリアルタイムでコーチしてくれる AI ゲーミングコンパニオン。
OnlyDoc Summarizer
OnlyDoc Summarizer
OnlyDocの無料PDF要約ツールは、PDFを読み込み、要点を整理された見やすい要約にまとめます
Scavio AI
Scavio AI
AIエージェントがWeb、ショッピング、動画、ソーシャルデータを構造化して取得できる、リアルタイムのマルチプラットフォーム検索API。
Iara Chat
Iara Chat
Iara Chat: AIによる生産性とコミュニケーションのアシスタント。
paperclaw
paperclaw
数分で出版対応の科学図表、ダイアグラム、ポスター、編集可能なSVGを生成するAIワークスペース。
Media.io Free AI Image Generator
Media.io Free AI Image Generator
Media.io を使って、テキストプロンプトや参考画像から AI ビジュアルを作成できます。SNS、マーケティング、Eコマースなどに活用可能です。
Seedance 2.0 Video AI
Seedance 2.0 Video AI
プロンプト、画像、参考クリップから、同期オーディオ付きの映画のような1080p動画を生成します。
whatslove.ai
whatslove.ai
あなたの性格に合わせてアドバイス、会話のきっかけ、デートのアイデアをカスタマイズする AI 恋愛コーチ。
CreateMemorial
CreateMemorial
CreateMemorialは、大切な人を偲ぶために、ご家族が永く残るオンライン追悼サイトや葬儀用スライドショー動画を作成できるサービスです。
StitchPilot.ai
StitchPilot.ai
画像を変換し、刺繍データをプレビューし、機械フォーマットを確認できるブラウザベースの AI 刺繍ツール。
Couple AI - AI Couple Photo Maker
Couple AI - AI Couple Photo Maker
セルフィーから、テーマ別スタイル、素早い生成、プライベートなHDダウンロード付きで、リアルなAIカップルポートレートを作成できます。
Mubert AI
Mubert AI
Mubertは、AI音楽プラットフォームで、ロイヤリティフリーのトラックを数秒で生成、拡張、リミックス、ボーカル化できます。
AIsa
AIsa
AIsa は、OpenAI 互換のアクセスを通じて、AI エージェントにモデル、スキル、API、支払いへの単一ゲートウェイを提供します。
AnimeShorts
AnimeShorts
最先端のAI技術を使用して、魅力的なアニメ短編を簡単に作成できます。
HappyHorseAIStudio
HappyHorseAIStudio
テキスト、画像、参照素材、動画編集に対応したブラウザベースのAI動画生成ツール。
WriteHybrid AI Humanizer
WriteHybrid AI Humanizer
WriteHybrid は、AI 生成テキストを自然に書き換えながら、AI 検出の回避を支援する AI ヒューマナイザー兼検出ツールです。
AI Pet Video Generator
AI Pet Video Generator
AI駆動のテンプレートと即時HD書き出しを使って、写真からバイラルで共有しやすいペット動画を作成します。SNS向けに最適化されています。
AI Video API: Seedance 2.0 Here
AI Video API: Seedance 2.0 Here
1つのキーで最先端の生成モデルをより低コストで提供する統合AI動画APIです。
Ampere.SH
Ampere.SH
無料の管理された OpenClaw ホスティング。$500 の Claude クレジットで 60 秒で AI エージェントをデプロイできます。
AdMakeAI
AdMakeAI
ブランド向けに高パフォーマンスな静止画広告とUGC広告を数秒で作成するAI広告ジェネレーターです。
NerdyTips
NerdyTips
AI 搭載のサッカー予測プラットフォーム。世界中のリーグにわたって、データに基づく試合のヒントを提供します。
Flaq AI Media API
Flaq AI Media API
Flaq AI は、画像、動画、LLM 搭載ワークフローを生成するための統合 AI メディア API プラットフォームで、安定したモデルを提供します
AI Gift finder by wishwave
AI Gift finder by wishwave
数百の人気ストアにある実在の商品から、共有できるウィッシュリストを作成するAIギフト検索ツール。
InstantChapters
InstantChapters
Instant Chaptersを使って、魅力的な書籍の章を瞬時に生成します。
VidMage
VidMage
AI技術を使用して、写真や動画で顔を簡単に入れ替えます。
Claude API
Claude API
Claude API for Everyone
Gptimg2 AI
Gptimg2 AI
テキスト、画像、参照素材から画像や動画を作成できる、オールインワンの AI スタジオです。
insmelo AI Music Generator
insmelo AI Music Generator
プロンプト、歌詞、またはアップロードを約1分で洗練されたロイヤリティフリーの曲に変換するAI駆動の音楽ジェネレーターです。
WhatsApp AI Sales
WhatsApp AI Sales
WABot は、リアルタイムのスクリプト、翻訳、インテント検出を提供する WhatsApp 向けの AI セールス コパイロットです。
GPT Image 2 Online
GPT Image 2 Online
フォトリアルな結果、正確なテキスト描画、強力なプロンプト追従を備えたAI画像生成・編集ツールです。
Kirkify
Kirkify
Kirkify AI はミーム作成者向けに、特徴的なネオングリッチ美学を備えた顔入れ替えのバイラルミームを瞬時に生成します。
MusicGPT
MusicGPT
シンプルなプロンプトから楽曲、効果音、ボーカル、オーディオ編集を生成するAI音楽プラットフォームです。
Lyria3 AI
Lyria3 AI
テキストのプロンプト、歌詞、スタイルから高音質で完全に制作された曲を瞬時に作成するAI音楽ジェネレーター。
Text to Music
Text to Music
テキストや歌詞を、AI生成のボーカル、楽器、マルチトラック書き出しを含むフルのスタジオ品質の楽曲に変換します。
AIToHuman
AIToHuman
AI が生成した文章を、自然で人間らしい文章に瞬時に書き換える無料の AI テキスト人間化ツールです。
wan 2.7-image
wan 2.7-image
正確な顔、配色、テキスト、ビジュアルの一貫性を制御できるAI画像生成ツールです。
HookTide
HookTide
あなたの声を学習してコンテンツ作成・エンゲージメント・パフォーマンス分析を行うAI搭載のLinkedIn成長プラットフォームです。
EaseMate AI
EaseMate AI
チャット、文章作成、学習サポート、画像作成、動画生成を1つのブラウザベースのプラットフォームで提供するオールインワンAIアシスタントです。
BeatMV
BeatMV
楽曲を映画のようなミュージックビデオに変換し、AIで音楽を作成するウェブベースのAIプラットフォームです。
Anijam AI
Anijam AI
Anijamは、アイデアをエージェント型の動画制作によって洗練されたストーリーへと変える、AIネイティブのアニメーションプラットフォームです。
Paper Banana
Paper Banana
学術テキストを即座に投稿準備が整った方法図や正確な統計図に変換する、AI搭載ツールです。
Create WhatsApp Link
Create WhatsApp Link
分析機能、ブランドリンク、ルーティング、マルチエージェントチャット機能を備えた無料のWhatsAppリンク&QRジェネレーター。
Tome AI PPT
Tome AI PPT
AI搭載のプレゼン作成ツール。数分でプロフェッショナルなスライドデッキを生成、整形、エクスポートします。
GLM Image
GLM Image
GLM Image は自己回帰モデルと拡散モデルを組み合わせたハイブリッド方式で、高忠実度のAI画像を生成し、優れたテキストレンダリングを実現します。
UNI-1 AI
UNI-1 AI
UNI-1は視覚的推論と高忠実度の画像合成を組み合わせた統合画像生成モデルです。
Gobii
Gobii
Gobii はチームが 24 時間 365 日稼働する自律型デジタルワーカーを作成し、ウェブ調査やルーティンタスクを自動化できるようにします。
WhatsApp Warmup Tool
WhatsApp Warmup Tool
AI 搭載の WhatsApp ウォームアップツールは、大量メッセージ送信を自動化しつつアカウント停止を防ぎます。
GenPPT.AI
GenPPT.AI
AI駆動のPPT作成ツール。数分でスピーカーノートとグラフ付きのプロフェッショナルなPowerPointプレゼンテーションを作成、整形、エクスポートします。
Wan 2.7
Wan 2.7
プロ仕様のAIビデオモデル。精密な動作制御とマルチビューの一貫性を実現します。
Hitem3D
Hitem3D
Hitem3Dは単一の画像をAIで高解像度かつプロダクション対応の3Dモデルに変換します。
happy horse AI
happy horse AI
テキストや画像から同期した動画と音声を生成するオープンソースのAI動画生成ツールです。
Seedance 20 Video
Seedance 20 Video
Seedance 2 は、一貫したキャラクター、マルチショットの物語表現、2K のネイティブ音声を提供するマルチモーダルな AI 動画ジェネレーターです。
AI FIRST
AI FIRST
自然言語を通じてリサーチ、ブラウザ作業、ウェブスクレイピング、ファイル管理を自動化する会話型AIアシスタント。
Veemo - AI Video Generator
Veemo - AI Video Generator
Veemo AIは、テキストや画像から高品質な動画と画像を素早く生成するオールインワンプラットフォームです。
Manga Translator AI
Manga Translator AI
AI Manga Translatorは漫画画像をオンラインで瞬時に複数の言語に翻訳します。
TextToHuman
TextToHuman
AIテキストを瞬時に自然で人間らしい文体に書き直す無料のAI人間化ツール。サインアップ不要。
Video Sora 2
Video Sora 2
Sora 2 AIはテキストや画像を数分で短く物理的に正確なソーシャル/eコマース向けビデオに変換します。
Remy - Newsletter Summarizer
Remy - Newsletter Summarizer
Remyはメールを短くて分かりやすい洞察にまとめることでニュースレター管理を自動化します。

Interfaze、diffusion-gemma-asr-small を公開。拡散デコードがオープン音声文字起こしを再構築できると賭ける

Interfaze は、音声AIの新たな道として拡散デコードを試す、6言語対応のオープンソース ASR モデル diffusion-gemma-asr-small を公開した。